예측 분석

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

예측 분석은 데이터 모델링, 머신 러닝, 인공지능, 딥러닝, 데이터 마이닝 등 다양한 통계 기법을 활용하여 대량의 데이터에서 관계와 패턴을 발견하고 미래를 예측하는 비즈니스 인텔리전스 기술이다. 과거 사건을 기반으로 미래를 예측하며, 범죄 용의자 식별, 신용카드 사기 감지 등 다양한 분야에 적용될 수 있다. 예측 분석은 예측 모델링, 데이터 스코어링, 예측을 포함하며, 회귀 기법과 기계 학습 기법을 활용한다. 예측 분석은 감사, 기업 경영, 고객 관계 관리, 현금 흐름 예측, 아동 보호, 법률, 보험, 의료 등 다양한 분야에 활용되며, 빅데이터 기술 발전의 영향을 받는다. 하지만 인간 행동의 예측 불가능성으로 인해 한계가 있다는 비판도 존재한다.

더 읽어볼만한 페이지

통계 모형 - 박스-젠킨스 방법
박스-젠킨스 방법은 자기상관 및 편자기상관 함수를 활용하여 시계열 데이터를 분석하고 예측하는 통계적 방법론으로, ARIMA 모델을 통해 데이터에 적합한 모델을 식별, 추정, 검증한다.
통계 모형 - 통계 모델
통계 모델은 사건의 확률을 계산하기 위한 통계적 가정의 집합으로, 표본 공간과 확률 분포의 집합으로 표현되며, 모수적, 비모수적, 준모수적 모델로 분류된다.
빅 데이터 - 데이터 분석
데이터 분석은 원시 데이터를 수집하여 의사 결정을 돕는 유용한 정보로 변환하는 과정으로, 데이터 수집, 처리, 정제, 탐색적 분석, 모델링, 데이터 제품 개발, 결과 소통 등의 단계를 거치며, 효과적인 분석을 위해 사실과 의견을 구별하고 편향을 극복하는 것이 중요하다.
빅 데이터 - 감시 자본주의
감시 자본주의는 기업이 사용자 행동 데이터를 수집, 분석하여 이윤을 얻는 새로운 자본주의 형태로, 개인 정보 침해 및 사회적 불평등 심화 등의 문제점을 야기하여 국제적인 규제 논의가 이루어지고 있다.
비즈니스 인텔리전스 - 데이터 웨어하우스
데이터 웨어하우스는 의사결정 지원을 위해 운영 시스템과 분리되어 운영되는 데이터 저장소로, 여러 시스템의 데이터를 통합하여 신뢰성 있는 단일 정보를 제공하며, 시간 가변성, 주제 중심성, 사용자 접근성, 읽기 전용 데이터베이스라는 특징을 가진다.
비즈니스 인텔리전스 - 메타데이터
메타데이터는 "데이터에 대한 데이터"로서, 데이터를 설명하는 구조화된 정보이며, 디지털 시대에 데이터 검색, 식별, 관리, 보존에 중요한 역할을 수행하고, 표준화된 스키마와 모델을 통해 구성되어 정보 관리를 효율적으로 만든다.

2. 정의

예측 분석은 데이터 마이닝, 머신 러닝, 인공 지능(AI), 딥 러닝 등 다양한 통계적 기법을 활용하여 데이터에서 패턴과 관계를 발견하고 미래를 예측하는 방법이다.^[3]^[4]^[1] 예측 분석은 과거, 현재, 미래에 관계없이 알려지지 않은 모든 유형의 사건에 적용될 수 있다. 예를 들어, 범죄 발생 후 용의자를 식별하거나, 신용카드 사기가 발생하는 즉시 감지하는 경우가 있다.

2. 1. 예측과 예측 분석

예측 분석은 대량의 데이터에서 관계와 패턴을 찾아내어 행동과 사건을 예측하는 데 사용되는 비즈니스 인텔리전스(BI) 기술이다. 다른 BI 기술과 달리 예측 분석은 미래를 지향하며, 과거의 사건을 바탕으로 미래를 예측한다.^[3] 예측 분석에는 데이터 모델링, 머신 러닝, AI, 심층 학습 알고리즘 및 데이터 마이닝과 같은 통계적 기법이 사용된다. 알려지지 않은 사건은 주로 미래에 발생하지만, 예측 분석은 과거, 현재, 미래에 관계없이 모든 유형의 알려지지 않은 사건에 적용될 수 있다. 예를 들어, 범죄 발생 후 용의자를 식별하거나, 신용카드 사기가 발생하는 즉시 감지하는 경우가 있다.^[4] 예측 분석의 핵심은 과거 발생 사례에서 설명 변수와 예측 변수 간의 관계를 파악하고 이를 활용하여 알려지지 않은 결과를 예측하는 것이다. 그러나 결과의 정확성과 유용성은 데이터 분석 수준과 가정의 질에 크게 좌우된다.^[1]

예측 분석은 각 개별 조직 요소에 대한 예측 점수(확률)를 생성하여 더 세분화된 수준에서 예측을 수행한다는 점에서 단순한 예측과 구별된다. 예를 들어, "예측 분석—경험(데이터)으로부터 학습하여 개인의 미래 행동을 예측하여 더 나은 의사 결정을 유도하는 기술"이다.^[5] 미래 산업 시스템에서 예측 분석은 잠재적인 문제를 예측하고 방지하여 고장을 거의 제로에 가깝게 줄이고, 의사 결정 최적화를 위해 규범 분석에 통합하는 가치를 지닌다.^[6]

3. 분석 기법

예측 분석에 사용되는 접근법과 기법은 크게 회귀 기법과 머신 러닝 기법으로 분류할 수 있다.^[1]

3. 1. 회귀 기법

회귀 모형은 예측 분석의 주역이다. 상황에 따라 예측 분석을 수행하면서 적용할 수 있는 다양한 모형이 있다. 회귀 분석은 일반적으로 독립 변수의 과거 값과 종속 변수와의 관계를 구조적 데이터와 함께 사용하여 예측을 형성한다.^[8]

3. 1. 1. 선형 회귀

회귀 분석은 독립 변수의 과거 값과 종속 변수와의 관계를 구조적 데이터와 함께 사용하여 예측을 한다.^[8]

선형 회귀 분석에서는 종속 변수의 이전 값을 Y축에, 분석 중인 독립 변수를 X축에 표시한 그래프를 작성한다. 그런 다음 통계 프로그램을 사용하여 독립 변수와 종속 변수 간의 관계를 나타내는 회귀선을 작성하며, 이를 통해 독립 변수만을 기반으로 종속 변수의 값을 예측할 수 있다. 프로그램은 회귀선과 함께 기울기 절편 방정식도 표시하는데, 여기에는 회귀 오차 항이 포함된다. 오차 항의 값이 클수록 회귀 모델의 정확도가 낮아진다. 오차 항의 값을 줄이려면 모델에 다른 독립 변수를 도입하고 이러한 독립 변수에 대해 유사한 분석을 수행한다.^[8]^[15]

선형 회귀 모델은 알려지지 않은 계수를 갖는 매개변수의 선형 함수로 반응 변수를 예측한다. 이러한 매개변수는 적합도가 최적화되도록 조정된다. 모델 피팅(fitting) 작업의 대부분은 잔차의 크기를 최소화하고, 모델의 예측값에 대해 무작위로 분포되어 있음을 보장하는 데 초점을 맞추고 있다.

회귀의 목적은 잔차 제곱합을 최소화하도록 모델의 매개변수를 선택하는 것이다. 이는 일반적인 최소 제곱법(OLS) 추정이라고 한다.

3. 1. 2. 이산 선택 모델

다중 회귀 분석은 일반적으로 반응 변수가 연속적이고 범위에 제한이 없는 경우에 사용된다. 그러나 반응 변수가 이산적인 경우도 많다. 수학적으로는 이산적으로 순서가 지정된 종속 변수에 다중 회귀 분석을 적용하는 것이 가능하지만, 다중 회귀 분석 이론의 기본 가정 중 일부는 더 이상 성립하지 않으며, 이러한 유형의 분석에는 이산 선택 모형과 같은 다른 기법이 더 적합하다. 종속 변수가 이산적인 경우, 우수한 기법으로는 로지스틱 회귀 분석, 다항 로짓(Multinomial logistic regression), 그리고 프로빗 모형이 있다. 로지스틱 회귀 분석과 프로빗 모형은 종속 변수가 이항인 경우에 사용된다.

두 가지 회귀는 로지스틱 분포가 약간 평평해지는 경향이 있다는 점을 제외하고는 비슷하게 작동하는 경향이 있다. 로짓 모델과 프로빗 모델에서 얻어지는 계수는 일반적으로 서로 가깝다. 그러나 오즈비는 로짓 모델로 해석하는 것이 더 쉽다.

로지스틱 모델보다 프로빗 모델을 선택하는 실질적인 이유는 다음과 같다.

기저 분포가 정규 분포라는 강한 확신이 있는 경우
실제 이벤트가 이항 결과(파산 상황 등)가 아니라 비율(부채 수준이 다른 인구의 비율 등)인 경우

3. 2. 머신러닝

머신러닝은 기계가 데이터를 통해 학습하고 인간의 지능적인 행동을 모방하는 기술이다.^[7] 이는 인공지능, 알고리즘 및 모델을 통해 달성된다.

기계 학습에는 회귀와 분류를 위한 고급 통계 기법이 많이 포함되어 있으며, 의료 진단, 신용카드 사기 탐지, 얼굴 및 음성 인식, 주식 시장 분석 등 다양한 분야에 응용되고 있다.

3. 2. 1. 자동 회귀 누적 이동 평균(ARIMA)

ARIMA(자동 회귀 누적 이동 평균) 모델은 시계열 데이터 분석에 사용되는 일반적인 모델이다. 자기회귀(autoregression)를 사용하여 데이터의 추세와 변동을 파악하고 미래 값을 예측한다.^[8]^[9] ARIMA 모델은 전반적인 추세가 없는 데이터에서 일정한 진폭을 가진 평균값 주변의 변동을 통해 통계적으로 유사한 시간 패턴을 생성하여 변수를 분석하고 데이터를 필터링하여 미래 값을 더 잘 이해하고 예측할 수 있도록 돕는다.

ARIMA 방법의 한 예로 지수 평활화 모델이 있다. 지수 평활화는 오래된 데이터와 새로운 데이터 간의 중요도 차이를 고려하는데, 이는 최근 데이터가 미래 값 예측에 더 정확하고 유용하기 때문이다. 이를 위해 지수를 사용하여 최근 데이터에 더 큰 가중치를 부여한다.^[10]

시계열 모델은 과거 값을 사용하여 데이터를 이해하고 예측하는 기계 학습의 하위 집합이다. 시계열은 기업 응용 프로그램에서 연도나 분기와 같이 일정한 간격으로 변수 값의 순서를 나타낸다.^[11]

박스-젠킨스 방법은 자기회귀 모델(AR)과 이동평균 모델(MA)을 결합하여 ARMA(자기회귀이동평균) 모델을 생성한다. ARIMA(자기회귀적분이동평균) 모델은 비정상 시계열을 설명하는 데 사용된다.

최근에는 ARCH(분산자기회귀) 모델과 GARCH(일반화 ARCH) 모델과 같이 조건부 이분산성을 모델링하는 더 정교한 시계열 모델도 등장했으며, 이러한 모델은 금융 시계열에 자주 사용된다.

3. 2. 2. 시계열 모델

시계열 모델은 과거 값을 사용하여 데이터를 이해하고 예측하기 위해 시계열을 활용하는 기계 학습의 하위 집합이다. 시계열은 기업 응용 프로그램에서 연도나 분기와 같이 일정한 간격으로 변수 값의 순서를 나타낸다.^[11] 이를 위해서는 데이터를 평활화하거나, 데이터의 무작위 분산을 제거하여 데이터의 추세를 파악해야 한다.

시계열 모델은 변수의 미래 행동을 예측하거나 예상하는 데 사용된다. 이러한 모델은 시간 경과에 따라 수집된 데이터 포인트가 고려해야 할 내부 구조(자기상관, 추세, 계절 변동 등)를 가질 수 있다는 사실을 설명한다. 결과적으로 표준 회귀 기법은 시계열 데이터에 적용할 수 없으며, 시계열의 추세, 계절적, 주기적 요소를 분해하기 위한 방법론이 개발되어 왔다.

시계열 모델은 확률적 성분을 포함하는 차분 방정식을 추정한다. 이러한 모델의 일반적으로 사용되는 두 가지 형태는 자기회귀 모델(AR)과 이동평균 모델(MA)이다. 박스-젠킨스 방법은 AR 모델과 MA 모델을 결합하여 정상 시계열 분석의 기초가 되는 ARMA(자기회귀이동평균) 모델을 생성한다. 반면, ARIMA(자기회귀적분이동평균) 모델은 비정상 시계열을 설명하는 데 사용된다.

ARIMA 모델은 자기회귀(autoregression)를 사용하는데, 즉 모델은 기계 학습을 사용하여 대부분의 회귀 분석과 평활화를 수행하는 회귀 소프트웨어로 적합될 수 있다. ARIMA 모델은 전반적인 추세가 없는 것으로 알려져 있지만, 대신 일정한 진폭을 가진 평균값 주변의 변동이 있어 통계적으로 유사한 시간 패턴을 생성한다. 이를 통해 변수가 분석되고 데이터가 필터링되어 미래 값을 더 잘 이해하고 예측할 수 있다.^[8]^[9]

ARIMA 방법의 한 예로 지수 평활화 모델이 있다. 지수 평활화는 오래된 데이터 세트와 새로운 데이터 세트 간의 중요도 차이를 고려하는데, 최근 데이터가 미래 값 예측에 더 정확하고 유용하기 때문입니다. 이를 위해 지수가 사용되어 최근 데이터 세트에 오래된 세트보다 더 큰 가중치를 부여한다.^[10]

최근 시계열 모델은 더욱 정교해졌고, 조건부 이분산성을 모델링하려는 시도가 이루어지고 있다. 이러한 모델에는 ARCH(분산자기회귀) 모델과 GARCH(일반화 ARCH) 모델이 있으며, 둘 다 금융 시계열에 자주 사용된다.

3. 2. 3. 예측 모델링

예측 모델링은 미래의 행동을 예측하는 데 사용되는 통계 기법이다. 예측 모델을 활용하여 주어진 표본에서 특정 단위와 해당 단위의 하나 이상의 특징 간의 관계를 분석한다. 이러한 모델의 목적은 다른 표본의 단위가 동일한 패턴을 보일 가능성을 평가하는 것이다. 예측 모델 솔루션은 일종의 데이터 마이닝 기술로 간주될 수 있다. 이러한 모델은 과거 및 현재 데이터를 모두 분석하여 잠재적인 미래 결과를 예측하기 위한 모델을 생성할 수 있다.^[14]

일반적으로 예측 모델을 만드는 과정에는 다음과 같은 단계가 포함된다.

# 프로젝트 목표와 원하는 결과를 결정하고 이를 예측 분석 목표와 작업으로 변환한다.

# 소스 데이터를 분석하여 가장 적절한 데이터와 모델 구축 방법을 결정한다(모델은 모델을 구축하는 데 사용되는 적용 가능한 데이터만큼 유용하다).

# 모델을 만들기 위해 데이터를 선택하고 변환한다.

# 프로젝트 목표와 측정항목을 충족할 수 있는지 여부를 평가하기 위해 모델을 만들고 테스트한다.

# 모델 결과를 적절한 비즈니스 프로세스에 적용한다(데이터의 패턴을 식별한다고 해서 비즈니스가 이를 활용하거나 활용하는 방법을 이해한다는 것을 의미하지는 않는다).

# 표준화 및 성능 개선을 위해 모델을 관리 및 유지 관리한다(새로운 규정 준수 규정을 충족하기 위해 모델 관리에 대한 수요가 증가할 것이다).^[3]

Predictive modelling^영어에서는 예측 모델을 사용하여, 표본 내 개체가 가진 특정 성능(performance)과 그 개체의 하나 이상의 알려진 속성 또는 특징 사이의 관계를 분석한다. 모델의 목적은 서로 다른 표본 내 유사한 개체가 특정 성능을 보일 가능성을 평가하는 것이다. 이 범주에는 고객 성과에 대한 질문에 답하기 위해 미묘한 데이터 패턴을 찾아내는 마케팅이나, 부정탐지 모델 등 여러 분야의 모델이 포함된다. 예측 모델은 예를 들어 특정 고객이나 거래의 위험과 기회를 평가하고 의사결정의 지침으로 삼기 위해 거래가 진행 중에 계산을 실행하는 경우가 많다. 계산 속도의 발전에 따라 개별 에이전트 모델링 시스템은 주어진 자극 또는 시나리오에 대한 인간의 행동과 반응을 시뮬레이션할 수 있게 되었다.

알려진 속성과 알려진 성능을 가진 이용 가능한 표본 개체는 "훈련 표본(training sample)"이라고 한다. 다른 표본 개체 중 속성은 알려져 있지만 성능은 알 수 없는 것은 "(훈련) 표본 외(out-of-sample)" 개체라고 한다. 표본 외 개체는 반드시 훈련 표본 개체와 시계열적인 관계를 가지는 것은 아니다. 예를 들어, 훈련 표본은 알려진 속성을 가진 빅토리아 시대 작가의 저작물의 문학적 속성으로 구성될 수도 있고, 표본 외 개체는 새롭게 발견된 미상의 저작물일 수도 있다. 예측 모델은 저작물을 알려진 작가에게 귀속시키는 데 도움이 될 수 있다. 다른 예로 범죄 현장에서의 유사 혈흔 분석을 들 수 있는데, 이 경우 표본 외 개체는 범죄 현장에서 나온 실제 혈흔 패턴이다. 표본 외 개체는 훈련 개체와 같은 시간, 이전 시간 또는 미래 시간의 것일 수도 있다.

3. 2. 4. 생존 분석

생존 분석은 특정 사건이 발생하기까지의 시간을 분석하는 방법이다. 주로 의학 및 생물학 분야에서 개발되었지만, 공학뿐만 아니라 경제학 등 사회과학 분야에서도 널리 이용되고 있다.

생존 데이터는 관찰 중단(censoring)과 비정규성이라는 특징을 가지는데, 이는 중회귀 분석 등 기존의 통계 모델을 사용하여 데이터를 분석할 때 어려움을 야기한다. 정규분포는 대칭 분포이므로 양의 값과 음의 값을 모두 가질 수 있지만, 지속 시간은 그 특성상 음의 값을 가질 수 없기 때문에, 지속 시간/생존 데이터를 다룰 때 정규성을 가정할 수 없다.

지속 시간 모델에는 파라메트릭, 논파라메트릭, 세미파라메트릭 모델이 있다. 일반적으로 사용되는 모델에는 Kaplan-Meier|카플란-마이어^영어와 콕스 비례 위험 모형(논파라메트릭)이 있다.

3. 2. 5. 분류 및 회귀 트리(CART)

분류 및 회귀 트리(Classification and Regression Tree, CART)는 의사결정 트리 학습을 통해 종속 변수가 범주형이면 분류를, 수치형이면 회귀를 수행하는 비모수적 기법이다.

의사결정 트리는 모델링 데이터 세트 내 변수를 기반으로 하는 규칙 집합으로 구성된다.

변수 값에 기반한 규칙은 종속 변수를 기준으로 관측값을 구분하기 위한 최적의 분할을 얻기 위해 선택된다.
규칙이 선택되고 노드가 둘로 분할되면, 동일한 과정이 각 "자식" 노드에 적용된다(즉, 재귀적 절차임).
분할은 CART가 더 이상의 이득을 얻을 수 없다고 판단하거나, 미리 설정된 중지 규칙이 충족될 때 중지된다. (또는, 데이터를 가능한 한 분할한 후에 트리를 가지치기하는 방법도 있다).

트리의 각 가지는 말단 노드에서 끝난다. 각 관측값은 하나의 말단 노드에 해당하며, 각 말단 노드는 일련의 규칙에 의해 고유하게 정의된다.

예측 분석을 위한 매우 일반적인 기법은 랜덤 포레스트이다.

3. 2. 6. 다변량 적응 회귀 스플라인(MARS)

Multivariate adaptive regression spline|다변량 적응 회귀 스플라인|label=^영어 (MARS)는 구간별선형 회귀를 적합시켜 유연한 모델을 구축하는 비모수적 방법이다.

다변량 적응 회귀 스플라인 방법은 모델을 의도적으로 오버피팅시키고, 최적의 모델을 얻기 위해 가지치기를 한다. 이 알고리즘은 계산량이 매우 많아 실제로는 기저 함수의 수에 상한이 지정되어 있다.

4. 응용 분야

예측 분석은 다양한 분야에서 활용되며, 그 예시는 다음과 같다.

4. 1. 감사

감사에서 중요한 부분은 분석적 검토이다. 분석적 검토는 보고된 계정 잔액이 타당한지 평가한다. 감사인은 자기회귀누적이동평균(ARIMA) 방법 및 일반 회귀 분석 방법을 사용하고,^[8] 특히 분석적 검토를 위한 통계 기법(STAR) 방법을 통해^[16] 감사 대상 잔액의 조건부 기대치를 예측한다.

ARIMA 방법은 과거 감사된 잔액에 대한 시계열 분석으로 조건부 기대치를 만든다. 이 기대치와 보고된 실제 잔액을 비교하여 얼마나 근접한지 확인한다. 보고된 잔액이 기대치에 가까우면 추가 감사는 생략한다. 차이가 크면 회계 오류 가능성이 높아 추가 감사를 한다.^[16]

회귀 분석 방법도 비슷하지만, 하나의 독립 변수만 사용한다고 가정한다. 감사된 계정 잔액에 영향을 주는 독립 변수의 중요성은 과거 계정 잔액과 현재 구조적 데이터를 통해 결정된다.^[8] 여기서 중요성은 종속 변수(계정 잔액)와의 관계에서 독립 변수가 얼마나 중요한지를 의미한다.^[17] 가장 중요한 독립 변수로 조건부 기대치를 생성하고, ARIMA 방법처럼 보고된 잔액과 비교하여 근접성에 따라 추가 조사 여부를 결정한다.^[8]

STAR 방법은 회귀 분석을 사용하며, 두 가지로 나뉜다. 첫째는 STAR 월별 잔액 접근법으로, 생성된 조건부 기대치와 회귀 분석이 모두 감사 중인 한 달에 관련된다. 둘째는 STAR 연간 잔액 접근법으로, 1년을 기준으로 조건부 기대치와 회귀 분석을 수행한다. 시간 차이 외에 두 방법 모두 예상 잔액과 보고된 잔액을 비교하여 추가 조사할 계정을 결정한다.^[16]

4. 2. 기업 경영

기업은 예측 분석을 활용하여 다양한 분야에서 의사 결정을 최적화한다. 자산 관리 회사는 예측 분석을 통해 더 나은 마케팅 캠페인을 개발할 수 있다. 이들은 대량 마케팅 방식에서 벗어나 고객 중심 방식으로 전환하여, 각 고객에게 맞춤화된 제안을 제공한다. 예측 분석을 사용하여 잠재 고객이 개인화된 제안을 수락할 가능성을 예측함으로써, 회사의 수락률이 크게 증가했다.^[18]

기술 발전은 예측 분석의 기업 가치를 높였다. 더 강력한 컴퓨터는 대규모 데이터 세트에 대한 예측을 훨씬 빠르게 생성할 수 있게 해주었다. 컴퓨팅 성능 향상과 더불어 더 많은 데이터와 응용 프로그램이 제공되면서, 예측 분석에 사용할 수 있는 입력 범위가 넓어졌다. 또한, 사용자 친화적인 인터페이스는 직원이 소프트웨어 및 응용 프로그램을 효과적으로 활용하는 데 필요한 진입 장벽을 낮추고 광범위한 교육 필요성을 줄였다. 이러한 발전 덕분에 더 많은 기업들이 예측 분석을 도입하고, 직원 효율성 및 효과뿐만 아니라 이윤에서도 이점을 보고 있다.^[19]

예측 분석의 초점은 종종 소비자가 아니라 제품, 포트폴리오, 기업, 산업 또는 경제에 맞춰진다. 예를 들어, 소매업체는 재고 관리를 위해 매장별 수요를 예측하고, 연방준비제도이사회는 내년 실업률을 예측하는 데 활용할 수 있다. 이러한 문제는 시계열 기법이나 기계 학습 접근 방식을 통해 해결할 수 있다.^[26]^[27]

4. 2. 1. 고객 관계 관리(CRM)

분석적인 고객관계관리(CRM)는 예측 분석이 활발하게 사용되는 상용 애플리케이션이다. 예측 분석 방법을 고객 데이터에 적용하여 고객의 전체적인 모습을 구축한다. CRM은 마케팅 캠페인, 판매 및 고객 서비스 애플리케이션에서 예측 분석을 사용하고 있다. 분석적인 CRM은 고객 생애주기(, 크로스셀링, 유지, 및 탈환) 전체에 적용할 수 있다.

대개 기업 조직은 업무 기록이나 판매 거래 등 방대한 데이터를 수집하고 유지한다. 이러한 경우 예측 분석은 고객의 지출 및 이용 상황, 기타 행동을 분석하는 데 도움이 되며, 효율적인 크로스셀링이나 기존 고객에게 추가 제품을 판매하는 데 기여한다.^[49]

예측 분석을 적절히 적용하면 더욱 적극적이고 효과적인 고객 유지 전략으로 이어진다. 고객의 과거 서비스 이용, 서비스 성적, 지불 및 기타 행동 패턴을 자주 조사함으로써 예측 모델은 고객이 언젠가 서비스를 종료할 가능성을 판단할 수 있다.^[50] 감성적 가치가 높은 제안을 개입함으로써 고객을 전환시키거나 고객 유지 가능성을 높일 수 있다. 예측 분석에서는 사이렌트 아트리션(고객이 서서히 하지만 꾸준히 이용을 줄이는 행동)을 예측할 수도 있다.

4. 2. 2. 현금 흐름 예측

ARIMA 단변량 및 다변량 모형은 과거 특정 요인들의 값을 기반으로 회사의 미래 현금 흐름을 예측하는 데 사용될 수 있다. 시계열 분석을 사용하여 이러한 요인들의 값을 분석하고 외삽하여 회사의 미래 현금 흐름을 예측할 수 있다. 단변량 모형의 경우, 과거 현금 흐름 값만이 예측에 사용되는 유일한 요인이다. 한편, 다변량 모형은 감가상각 전 영업이익과 같은 발생액 데이터와 관련된 여러 요인을 사용한다.^[20]

현금 흐름 예측에 사용되는 또 다른 모형은 1998년에 개발되었으며, Dechow, Kothari, Watts 모형 또는 DKW(1998)로 알려져 있다. DKW(1998)는 회귀 분석을 사용하여 여러 변수와 현금 흐름 간의 관계를 결정한다. 이 방법을 통해, 모형은 현금 흐름 변화와 발생액이 특히 현재 수익을 통해 음의 상관관계가 있음을 발견하고, 이 관계를 사용하여 다음 기간의 현금 흐름을 예측한다. DKW(1998) 모형은 발생액과 현금 흐름의 매입채무 및 매출채권, 그리고 재고와의 관계를 통해 이러한 관계를 도출한다.^[21]

4. 3. 아동 보호

일부 아동복지기관에서는 예측 분석을 사용하여 고위험 사례를 식별한다.^[22] 예를 들어, 플로리다주 힐스버러 카운티의 아동복지기관은 예측 모델링 도구를 사용하여 표적 집단 내에서 아동 학대 관련 사망을 예방했다.^[23]

4. 4. 법률

인공지능 프로그램을 이용하여 사법 결정 결과를 예측할 수 있다. 이러한 프로그램은 해당 분야 전문직 종사자를 위한 보조 도구로 사용될 수 있다.^[24]^[25]

4. 5. 보험 산업

많은 기업에서는 다양한 서비스를 위해 위험 인수를 고려하고, 그 위험을 감당하는 데 필요한 비용을 결정해야 한다. 예측 분석은 질병, 채무불이행, 파산 등의 가능성을 예측함으로써 이러한 위험을 인수하는 데 도움이 된다. 예측 분석은 애플리케이션 수준의 데이터를 사용하여 고객의 미래 위험 행동을 예측함으로써 고객 확보 프로세스를 합리화할 수 있다.^[58] 신용 점수 형태의 예측 분석은 특히 주택 담보 대출 시장에서 대출 승인에 걸리는 시간을 단축시켰다. 적절한 예측 분석은 적절한 가격 결정으로 이어지고 미래의 채무 불이행 위험을 줄일 수 있다. 예측 분석은 도덕적 해이를 완화하고 사고 발생을 예방하는 데 사용될 수 있다.^[28]

4. 6. 의료

예측 분석은 주로 당뇨병, 천식, 심장병과 같은 질병에 걸릴 위험이 있는 환자를 판별하기 위해 의료 분야에서 사용된다. 또한, 고도화된 임상의사결정지원시스템(Clinical decision support system)에는 의학적 의사결정을 지원하기 위한 예측 분석이 통합되어 있다.

2016년 신경변성질환 연구에서는 파킨슨병의 진단, 추적, 예측 및 진행 상황을 모니터링하기 위한 CDS 플랫폼의 강력한 사례가 제시되었다.^[53]

5. 기술 발전과 빅데이터의 영향

빅데이터는 기존의 데이터베이스 관리 도구로 처리하기 어려울 정도로 방대하고 복잡한 데이터 집합체이다. 빅데이터 정보 출처의 예로는 웹로그, RFID, 센서 데이터, 소셜 네트워크, 인터넷 검색 색인, 통화 상세 기록, 군사 감시, 천문 과학, 생물 지구 화학, 게놈학, 대기 과학 등이 있다. 빅데이터는 IT 조직이 제공하는 대부분의 예측 분석 서비스의 핵심을 이룬다.^[59] 컴퓨터 하드웨어 기술의 발전(더 빠른 CPU, 더 저렴한 메모리, MPP 아키텍처)과 빅데이터를 처리하기 위한 분산 처리(예: Hadoop, 맵리듀스), 데이터베이스 내 분석 및 텍스트 분석과 같은 새로운 기술 덕분에, 구조화된 데이터와 비구조화 데이터^[60]를 대량으로 수집, 분석, 마이닝하여 새로운 통찰력을 얻을 수 있게 되었다. 스트리밍 데이터에 대해 예측 알고리즘을 실행하는 것도 가능하다.^[61] 오늘날, 빅데이터 탐색과 예측 분석의 사용은 그 어느 때보다 많은 조직의 손이 닿는 곳에 있으며, 그러한 데이터 집합을 처리할 수 있는 새로운 방법이 제안되고 있다.^[62]^[63]

6. 비판

일각에서는 인간 행동의 복잡성과 예측 불가능성을 지적하며 예측 분석의 한계를 제기한다. 하버드 대학교 교수이자 정량적 사회과학 연구소 소장인 게리 킹(정치학자)을 비롯하여 컴퓨터나 알고리즘이 미래를 예측하는 능력에 대해 회의적인 의견이 많다.^[67] 인간은 무수한 방법으로 환경의 영향을 받는다. 사람들이 다음에 무엇을 할지 완벽하게 예측하려면, 영향력 있는 모든 변수를 알고 정확하게 측정해야 한다. "사람들의 환경은 그들 자신보다 훨씬 더 빠르게 변한다. 날씨부터 어머니와의 관계까지 모든 것이 사람의 생각과 행동을 바꿀 가능성이 있다. 이러한 변수들은 모두 예측할 수 없다. 그것들이 사람에게 어떤 영향을 미칠지는 더욱 예측 불가능하다. 내일 완전히 같은 상황에 놓인다 해도 그들은 전혀 다른 결정을 내릴지도 모른다. 이것은 통계적 예측이 무균 실험실 조건에서만 유효하다는 것을 의미하며, 갑자기 예전처럼 유용하지 않게 될 수 있다는 것을 의미한다.^[68]"

1990년부터 2006년 사이에 『Information Systems Research』와 『MIS Quarterly』에 게재된 논문들을 조사한 결과는 다음과 같다.^[69]

참조

_[1] 웹사이트 To predict or not to Predict https://mccoy-partne[...] 2022-05-05
_[2] 서적 Pulse: Understanding the Vital Signs of Your Business (1st ed.) Ambient Light Publishing
_[3] 웹사이트 Predictive Analytics. Extending the Value of Your Data Warehousing Investment http://download.101c[...] 2007
_[4] 서적 Predictive Analytics, Data Mining and Big Data. Myths, Misconceptions and Methods (1st ed.) Palgrave Macmillan
_[5] 서적 Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die (1st ed.) Wiley
_[6] 서적 Data Analytics in Project Management Taylor & Francis Group, LLC
_[7] 웹사이트 Machine learning, explained https://mitsloan.mit[...] 2022-05-06
_[8] 논문 ARIMA and Regression in Analytical Review: An Empirical Test 1978
_[9] 웹사이트 Introduction to ARIMA models https://people.duke.[...] 2022-05-06
_[10] 웹사이트 6.4.3. What is Exponential Smoothing? https://www.itl.nist[...] 2022-05-06
_[11] 웹사이트 6.4.1. Definitions, Applications and Techniques https://www.itl.nist[...] 2022-05-06
_[12] 웹사이트 6.4.2.1. Single Moving Average https://www.itl.nist[...] 2022-05-06
_[13] 웹사이트 6.4.2.2. Centered Moving Average https://www.itl.nist[...] 2022-05-06
_[14] 서적 Applying Predictive Analytics: Finding Value in Data Springer
_[15] 웹사이트 Linear Regression http://www.stat.yale[...] 2022-05-06
_[16] 논문 Regression Analysis in Auditing: A Comparison of Alternative Investigation Rules 1982
_[17] 웹사이트 Materiality in audits https://www.pwc.com.[...] 2022-05-03
_[18] 논문 The Business Value of Predictive Analytics http://nexdimension.[...] 2011-06
_[19] 서적 All Days 2007-04
_[20] 논문 A Multivariate Time-Series Prediction Model for Cash-Flow Data 1996
_[21] 논문 Accruals and the Prediction of Future Cash Flows 2001
_[22] 웹사이트 New Strategies Long Overdue on Measuring Child Welfare Risk https://imprintnews.[...] 2022-05-03
_[23] 논문 Within Our Reach: A National Strategy to Eliminate Child Abuse and Neglect Fatalities https://www.acf.hhs.[...] 2016
_[24] 논문 Predicting judicial decisions of the European Court of Human Rights: a Natural Language Processing perspective 2016
_[25] 웹사이트 AI predicts outcomes of human rights trials https://www.ucl.ac.u[...] 2022-05-03
_[26] 논문 Prediction in financial markets: The case for small disjuncts https://dl.acm.org/d[...] 2011-05-06
_[27] 논문 Discovering Interesting Patterns for Investment Decision Making with GLOWER ◯-A Genetic Learner Overlaid with Entropy Reduction 2000-10-01
_[28] 논문 Using Risk Analytics to Prevent Accidents Before They Occur – The Future of Insurance https://www.capco.co[...] 2021-11
_[29] 간행물 Predictive Analytics White Paper https://www.the-digi[...] American Institute for Chartered Property Casualty Underwriters/Insurance Institute of America
_[30] 간행물 Extending the Value of Your Data Warehousing Investment http://tdwi.org/arti[...] The Data Warehouse Institute 2007-05-10
_[31] 서적 Pulse: Understanding the Vital Signs of Your Business Ambient Light Publishing 2014
_[32] 뉴스 Insurers Shift to Customer-focused Predictive Analytics Technologies http://www.insurance[...] 2008-09-02
_[33] 뉴스 The 7 Best Uses for Predictive Analytics in Multichannel Marketing http://www.targetmar[...] 2011-03-02
_[34] 뉴스 The Opportunity for Predictive Analytics in Finance http://www.hpcwire.c[...] 2011-04-21
_[35] 뉴스 CRM + Predictive Analytics: Why It All Adds Up http://www.destinati[...] 2011-05
_[36] 논문 Competitive Advantage in Retail Through Analytics: Developing Insights, Creating Value http://www.informati[...] 2006-07-01
_[37] 논문 New Technology Taps 'Predictive Analytics' to Target Travel Recommendations http://www.travelmar[...] 2010-09-02
_[38] 논문 Time-evolving O-D matrix estimation using high-speed GPS data streams http://repositorio.i[...] 2016-02-01
_[39] 논문 Tech Beat: Can you pronounce health care predictive analytics? http://www.times-sta[...] 2011-12-16
_[40] 논문 Eckerd Rapid Safety Feedback Bringing Business Intelligence to Child Welfare http://static.eckerd[...] 2014-10-01
_[41] 웹사이트 Florida Leverages Predictive Analytics to Prevent Child Fatalities -- Other States Follow https://www.huffpost[...] 2015-12-21
_[42] 논문 The New Prescription for Pharma http://www.destinati[...] 2009-08-01
_[43] 웹사이트 Evaluating Predictive Analytics for Capacity Planning https://www.hisa.org[...]
_[44] 논문 2017 2nd International Conference on Communication Systems, Computing and IT Applications (CSCITA)
_[45] 간행물 Predictive Analytics White Paper https://www.the-digi[...] American Institute for Chartered Property Casualty Underwriters/Insurance Institute of America
_[46] 웹사이트 UX Optimization Glossary > Data Science > Web Analytics > Predictive Analytics http://www.personali[...] 2018-10-11
_[47] 서적 Predictive Analytics, Data Mining and Big Data. Myths, Misconceptions and Methods Palgrave Macmillan 2014
_[48] 서적 Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die Wiley 2013
_[49] 간행물 Extending the Value of Your Data Warehousing Investment http://tdwi.org/arti[...] The Data Warehouse Institute 2007-05-10
_[50] 논문 CRM + Predictive Analytics: Why It All Adds Up http://www.destinati[...] 2011-05-01
_[51] 웹사이트 New Strategies Long Overdue on Measuring Child Welfare Risk - The Chronicle of Social Change https://chronicleofs[...] 2016-02-03
_[52] 웹사이트 A National Strategy to Eliminate Child Abuse and Neglect Fatalities https://www.acf.hhs.[...] Commission to Eliminate Child Abuse and Neglect Fatalities. (2016)
_[53] 논문 Predictive Big Data Analytics: A Study of Parkinson's Disease using Large, Complex, Heterogeneous, Incongruent, Multi-source and Incomplete Observations
_[54] 웹사이트 Predicting judicial decisions of the European Court of Human Rights: a Natural Language Processing perspective https://peerj.com/ar[...]
_[55] 웹사이트 AI predicts outcomes of human rights trials https://www.ucl.ac.u[...]
_[56] 논문 Prediction in Financial Markets: The Case for Small Disjuncts 2011-04-01
_[57] 논문 Discovering Interesting Patterns in Investment Decision Making with GLOWER – A Genetic Learning Algorithm Overlaid With Entropy Reduction http://dl.acm.org/ci[...] 2000-10-01
_[58] 논문 Insurers Shift to Customer-focused Predictive Analytics Technologies http://www.insurance[...] 2008-09-02
_[59] 웹사이트 http://www.hcltech.c[...]
_[60] 간행물 BI Experts: Why Predictive Analytics Will Continue to Grow http://tdwi.org/Arti[...] The Data Warehouse Institute 2012-03-06
_[61] 웹사이트 Predictive Analytics on Evolving Data Streams http://www.win.tue.n[...]
_[62] 논문 Efficient Construction of Decision Trees by the Dual Information Distance Method http://www.eng.tau.a[...] Quality Technology & Quantitative Management (QTQM), 11(1), 133-147
_[63] 논문 Peer-to-peer information retrieval using shared-content clustering http://www.eng.tau.a[...]
_[64] 논문 The Top 5 Trends in Predictive Analytics http://www.informati[...] 2011-11-01
_[65] 간행물 Extending the Value of Your Data Warehousing Investment http://tdwi.org/arti[...] The Data Warehouse Institute 2007-05-10
_[66] 간행물 5 Myths about Predictive Analytics http://tdwi.org/arti[...] The Data Warehouse Institute 2012-05-01
_[67] 간행물 Predicting The Future: Fantasy Or A Good Algorithm? https://www.npr.org/[...] NPR 2012-10-08
_[68] 간행물 Polling and Statistical Models Can't Predict the Future http://www.cameronal[...] Cameron Alverson 2012-09-01
_[69] 논문 To Explain or to Predict? 2010-08-01
_[70] 서적

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

예측 분석
예측 분석
개요
정의	사실을 분석하여 알려지지 않은 사건에 대한 예측을 하는 통계 기법
목적	미래 사건 예측
활용 분야
마케팅	다채널 마케팅
금융	신용 점수 평가
소매	경쟁 우위 확보
여행	여행 추천
경제	경제적 이동성 예측
교통	교통량 예측
의료	건강 관리 예측 분석
아동 복지	아동 사망 예방
제약	새로운 처방
용량 계획	시스템 용량 계획
기술
방법	통계 모델 기계 학습 알고리즘 데이터 마이닝
기타
추가 정보	예측하거나 예측하지 않거나 데이터 웨어하우스 투자 가치 확장 금융에서의 예측 분석 기회 CRM + 예측 분석: 왜 모든 것이 합쳐지는가 분석을 통한 소매 경쟁 우위 여행 추천을 목표로 하는 예측 분석 헬스케어 예측 분석 아동 복지 비즈니스 인텔리전스 플로리다, 아동 사망 예방을 위한 예측 분석 활용 제약 업계의 새로운 처방 용량 계획 예측 분석 평가 딥러닝을 사용한 라이프스타일 매거진 인스타그램 게시물의 인기 예측 예측 분석 백서 고객 중심 예측 분석 기술로 전환 멀티채널 마케팅의 예측 분석 7가지 활용 사례 고속 GPS 데이터 스트림을 사용한 시간 경과 O-D 매트릭스 추정

분야	활용 내용 및 효과
감사
기업 경영
고객관계관리(CRM)
현금 흐름 예측
아동 보호
법률
보험 산업
의료